转载 | 大数据时代的「计算文化心理学」
推荐理由
「视频课程 | Python实证指标构建与文本分析」 一直是面向经管、心理学、社会学等计算社会科学的一门综合性课程。希望能学技术的同时,也多了解技术应用背后的方法论、认识论,大数据导向的研究必能事半功倍。
吴胜涛,茅云云,吴舒涵,冯健仁,张庆鹏,谢天,陈浩,朱廷劭.基于大数据的文化心理分析[J].心理科学进展:1-13.
摘要: 随着大数据技术与文化心理学的融合发展, 计算文化心理学作为一门新兴交叉学科逐渐兴起, 大尺度、近乎全样本的文化心理分析真正得以实现。计算文化心理学关注的文化变量主要围绕个人主义/集体主义这一文化心理学使用最为广泛的维度展开, 分析方法包括特征词典、机器学习、社会网络分析、仿真模拟等, 分析思路包括时间维度上的文化变迁效应以及空间维度上的文化地理效应。当然, 计算文化心理学在为传统文化心理研究提供新方法、新范式的同时, 也存在解码失真、样本偏差、词语多义性、隐私风险等局限, 未来研究应重视变量理论解释、文化动态演化分析、学科深度整合、生态效度等问题。
关键词: 大数据, 文化, 计算文化心理学, 文化变迁, 文化地理
一、大数据文化心理学
近 10 年的大量文献来看, 大数据技术已经成为当前哲学、自然科学和 社会科学共同关注的重要问题, 为人文与社会科学提供了继实验、理论、仿真之后的第四种研究范式, 并催生了计算社会科学的诞生(Gray, 2009; Lazer et al., 2009)。
随着大数据时代的到来, 传统文化心理学面临诸多挑战, 但也迎来了范式变革的机遇。
首先, 互联网将人与人之间的距离拉近, 使得不同文化背景的人主动或被动地汇聚在一个时空压缩的“地球村”里, 全球范围的文化互动、变迁成为常态, 但由于研究资料受限、分析方法滞后, 传统文化心理学在进行大尺度时间、空间分析时费时费力。幸运的是, 信息技术的发展使得不同时间、空间的文化符号及其互动过程留下了海量的数据印记, 这为研究者分析不同时间、不同空间下的文化心理特征提供了无可比拟的大规模生态数据库。 进而, 大数据技术赋能研究者们方便地抓取网络生态数据, 研究文化动态演化及节点事件效应(Park, Baek et al., 2014; Wu, Zhou et al., 2018), 使得时间趋势和空间地理上的大尺度分析真正成为可能, 文化心理学的研究问题也得以拓展。
其次, 大数据时代文化符号生产快速增长, 但是基于纸笔测验和行为实验的传统文化心理学 研究往往是滞后的, 且样本量较小、代表性不够, 远远不能满足研究者和决策者的需要。而基于大数据的文化心理学研究能够以相对较低的时间、 人力成本实现近乎全样本的数据进行自动抓取、 实时分析乃至实验操控, 并从海量数据中迅速锁定、预测某一群体的行为特征, 进而实现宏观群 体水平的文化心理分析、预测和改变。
再者, 大数据时代的文化互动日趋个体化和复杂化, 而传统的文化心理学容易忽视文化成员在个体水平及复杂情景中的差异, 仅通过抽样追 求简单因果关系, 却难以把握文化心理、行为间的复杂相关性。也就是说, 在没有搞清楚“是什么” 的情况下就去分析“为什么” (顾肃, 2021)。巨大、 连续的数据存储和模型分析, 以一种细粒度和大规模乃至全球范围的方式实时研究个体行为, 能够根据个体和情景变异进行适应性的调整和持续、实时的纠正; 同时, 庞大数据量补偿了精确性上的损失, 这有助于分辨出最合适的相关关系, 捕捉小数据测量时没有的新价值(Lazer et al., 2009)。尽管基于大数据技术的词频、预测模型或社会网络分析并非新鲜事物, 但将其应用于文化心理学研究能够从整体上把握对象, 促进从因果思维向相关性思维转变, 进而有利于全面、客观地揭示隐藏在数据背后的文化意涵和规律(陈云松, 2015)。
最后, 更为重要的是, 大数据时代的文化形态也发生了深刻变化。 随着互联网的快速发展与网民的大量增加, 基于网络的独特文化现象层出 不穷, 一些经典的文化行为特征在网络上的表现也有所不同, 但传统文化心理学对此知之甚少。例如, 研究发现相对于其他社会环境, 网络环境 下人们的情绪表达会更极端, 而且网络使用的时间越长, 极端情绪越明显(King, 2001)。此外, 由于线上与线下任务的认知加工过程不同, 人们在 一些经典的文化认知表现上也存在差异。例如, 相对于认知负荷较大的线下记忆任务, 低认知负荷的线上浏览任务中被试有更多的认知资源来处理外部信息, 因此在社会行为推理上会表现出较小的对应偏差, 基于国别的文化差异被基于线上 和线下的文化差异所代替(Miyamoto & Kitayama, 2002)。尤其值得注意的是, 移动互联网本身就是一种带有偏差的文化产品, 例如具有相应文化倾向(如高个人主义、低不确定性回避)的用户也更能 体验到技术−文化匹配后的愉悦感和效用感(Lee et al., 2007)。因此我们不能仅满足于将研究线下文化现象的思维来简单套用到线上行为的文化心理研究中。总之, 随着计算机和大数据技术的深入发展, 人类社会及其文化形态正经历着深刻的变革。文化符号的生产和互动日趋复杂, 文化成员及其社 会网络更是留下了海量的文本与行为足迹。这使得文化必须被快速地描述、预测甚至改变, “可计算”的文化符号及其互动过程也逐渐成为文化心理学的研究对象。接下来, 我们将主要对计算文化心理学的产生过程、主要变量和分析技术进行回顾, 并介绍该技术在相关文化变迁、文化地理效应的应用。
二、计算文化心理学
在计算文化心理学正式产生以前, 文化学者就受到计算机技术的启发, 提出了「文化计算」概念, 强调要发挥计算机的独特优势, 以便多维度 展现文化及其与人的互动(Tosa et al., 2005)。通过 文化计算, 研究者首先在艺术领域实现了文化的数据化呈现和翻译(Tosa et al., 2019)。进而, 文化计算把计算及相关技术应用到越来越多的文化领域, 探索其发展规律、提示其内在联系并对其进行量化分析与展示的科学(赵海英 等, 2016)。如 Michel 等人(2011)通过对谷歌图书项目的数据进行分析, 发现了特定关键词使用频率的时间变化规律, 并由此推导出人类文化发展的趋势, 如语法演变、集体记忆和流行病学的变化趋势等; 吴育锋等人(2018)通过“文心” (中文心理分析系统) 对小说《平凡的世界》中的对话文本进行文学智能分析, 发现其计算出的小说人物性格与以往文艺研究结果一致, 并发现了不同时代人物呈现出性格变迁的趋势(如新时代青年的性格更加开放、 外向);
Neuman 等人(2012)在 「文化计算」 的基础上正式提出了「计算文化心理学」”的概念, 即通过计算工具和大数据资料库来研究文化符号及其互动过程的心理学分支。值得注意的是, 虽然文化计算和基于计算的文化心理学有很多相似之处, 但是二者也有区别:
前者侧重文化载体的呈现, 以及 文化基因的提取; 后者除了一般意义上的文化计算, 还注重分析人与文化环境的交互关系, 并且文化载体不仅是传统艺术文化, 也包含网络社交 媒体等。
三、文化心理变量的提取
为了理解文化现象, 心理学者需要首先提取文化心理变量, 进而理解影响其成员思维的符号系统和互动机制。语言是被分享的文化系统(王斌, 2012), 因此我们可以把语言看做是理解文化的窗口以及提取文化心理变量的来源(罗伯特·怀尔 等, 2017)。语言的本质是思想、话语的直接现实和展示(吴美川, 2020), 其在计算文化心理学领域的语言载体主要包括书籍、社会媒体数据、档案数据、网络音频等。
针对语言文化载体, 研究者主要提取的文化心理变量包括个人主义/集体主义、个性解放/自我表达、文化松紧度等, 详见表 1。
第一, 这些变量本身具有重要研究价值, 如个人主义/集体 主义是文化心理学中使用最为广泛的文化维度, 尤其对社会文化变迁和跨文化比较研究具有重要 意义; 第二, 社会现实的需求, 如新冠疫情的全球大流行显著增加了规范遵从的强度, 这需要研 究者及时分析其文化适应后果及政策干预策略; 第三, 此类文化变量的可操作性强, 便于用大数 据方法来进行抓取和计算。
此外, 计算文化心理学研究也对一些文化变量进行了操作化和创造性的发展。首先, 考虑到大数据的语料库特点, 选用一些便于操作的语言 特征作为经典文化心理学变量的指标, 例如用第一人称单数的使用频率作为个人主义的指标(Twenge et al., 2013); 其次, 将个体的行为印记(如@他人、 成组人群比例)作为文化心理变量的指标, 是对以往基于主观报告的文化心理测量的重要发展(Wu, Li et al., 2018); 此外, 根据新媒体的特点, 采用表情包等作为文化相关情绪表达规范的指标也是一种有益的创新(Koda & Ishida, 2006)。
四、文化心理变量的计算方法
目前采用大数据技术进行文化心理分析主要 有 4 种方法:
基于特征词典的频次分析, 如通过对数字、表情和语言等方面的关键特征分析, 研究个体或群体的文化价值观, 这是一种简单有效但相对粗糙的分析(李国杰, 程学旗, 2012)。
基于机器学习的模型预测或词嵌入联想测验, 如通过机器学习模型对用户的个性、价值观和意识 形态进行识别, 这种方法更精确, 对心理特征的 把握也更全面(Kosinski et al., 2015); 词嵌入联想 测验以词嵌入向量特征代替传统的词频特征, 将 靶词和属性词向量的余弦相似度作为语义关联度的指标, 是社会态度与价值观研究的新方法 (Caliskan et al., 2017; Hamamura et al., 2021)。
社会网络分析, 如通过对网络搜索、网友互粉 等数据的分析, 研究不同文化群体的行为和决策风格, 这种方法目前在文化心理学领域还相对较 少, 但具有重要的社会实践价值(Wu, Li et al., 2018);
社会仿真模型, 因为很多社会事 件是无法在现实中进行实验的, 所以采用仿真模拟的办法来研究某一特定的系统和策略, 从而达到分析社会事件的目的(刘婷婷 等, 2016)。当然, 这 4 种技术并不是孤立的, 研究者也会根据研究 问题采取一种或多种技术。
特征词典的频次分析、机器学习的模型预测或词嵌入联想测验等技术方法在课程「课程 | Python实证指标构建与文本分析」 中均有丰富的案例、代码、实战。
总之, 计算文化心理学致力于应用大数据思维、大数据资源和计算工具来研究文化系统背后的意义制造与互动过程, 它不仅为文化心理分析 提供了新的工具, 也为理解人类思维本质和文化 形态提供了新的学科范式(Neuman, 2014)。围绕着“集体主义/个人主义”这一被最广泛讨论的文化心理变量, 「计算文化心理学」可以在时间、空间两个维度方面有如下应用:
在时间维度上, 分别从长时程的宏观历史发展和短时程的经济波动转型两个角度介绍计算文化心理学的应用; 在空间维度上, 主要进行生态地理分析, 如文化在特定政治和经济框架内的地区差异, 不同地区生态或户籍制度造成的个人−环境匹配与价值失调。分析框架见图 1。
五、不足&展望
虽然计算文化心理学已经崭露头角, 相对于 传统文化心理学研究方法和范式具有无法比拟的优势, 但利用大数据进行文化心理分析仍然存在一些局限。
5.1 技术自身带来的局限
首先, 很多研究者忽视了同一变量在不同时代、不同国家的意义分歧, 造成解码失真。心理学者检验文化变迁的常用方法是寻找作者认为对 文化敏感的词汇并探索其使用频率的时间变化, 比如通过追踪第一人称单、复数代词的使用频率 来分析集体主义、个人主义的时间变迁效应 (Twenge et al., 2013; Yu et al., 2016)。然而, 语言 总是随着时间演变, 同一个词义并不具有稳定性, 其不可避免地受到经济、政治或者文化因素的影响。
假定大数据背后的文化成员能代表整个文化, 容易将带有偏差的文化成员样本视为研究整体。例如, 很多研究者使用当下非常流行的语料库——Google Ngram Viewer 来研究集体主义/个人主 义, 并把结论推广至整个国家层面(Twenge et al., 2013)。但实际上, 该语料库并不能代表无差别的文化整体, 相反, 它仅仅是突出了特定子群体的文化, 如 Google Ngram Viewer 仅代表书面文化的使用者, 社交媒体数据只包含社交媒体用户, 而 忽视了没有机会接触书籍和社交媒体的文化成员 (Pettit, 2016)。所以, 研究者要特别注意, 诸如图书语料库、社交媒体分析等并不是基于无偏样本, 因此在使用该类分析材料时要考虑结论的可推广 性和普遍适用性问题。
第三, 研究者对量表或题项进行赋值、使得变量可计量, 进而将文化心理与行为转换为一种符号系统, 但是大数据分析中的频次分析提取的 关键词往往具有多义性, 如果研究者只是摘取了某个含义并将其纳入特定理论范畴, 则难免会出 现选择性谬误。同时, 用于处理数据的软件还会 进一步固化这一测量误差。例如在 LIWC 软件中, 因 为 “great” 属 于积极情感范畴 , 所 以 “a great amount of rain”这一无关表达将被归类为积极情 感表达。这意味着, 即便大数据分析技术的飞速发展, 但其得出的结果仍不够精确。
第四, 存在文化被监控和被操纵、以及侵犯个人隐私的风险。大数据以其海量存储和智能计算优势来提取个人和特定群体的文化和性格数据, 进而实施与文化−性格相匹配的精准操纵, 甚至攻击。这些做法明显的弊端就是数据隐私性和国 家区域安全难以保证, 容易被不法分子利用。因 此, 为了避免个体数据及其分析结果被滥用, 全球研究者应该将研究伦理置于大数据分析的首位, 共同谋求相应的解决措施和共通的数据法律来解 决个人信息及国家或地区文化心理分析的不当使 用问题 (Kosinski et al., 2015)。
5.2 技术带来的机会
我们不能忽视它在未来的巨大发展空间, 应从理论高度对大数据测量指标进行准确定义和解释。大数据时代, 出现了重视数据驱动、而轻视理论的现象(维克托 • 迈尔-舍恩伯格, 肯尼斯 • 库克耶, 2013)。但实际上大数据只是在数据采集中提供了一个发现或检验科学理论的新方法, 不能在知识生产环节中取代理论知识的地位。理论在大数据研究中是重要的, 一方面大数据分析的算法模型以及对数据的解释需要理论的支撑(彭理强, 2019), 另一方面我们需要运用数据的意向性并由此对数据进行分类, 而不同的意向性和不同的分类体系是由理论概念决定的(齐磊磊, 2015)。因此, 在未来的研究中, 研究者的设计和经验数据的使用应在理论指引下进行, 尤其在指标维度的构建上要重视理论术语的指称和实体之间的关系(贾向桐, 2019)。
其次, 利用多种大数据语料库, 进行更广泛的文化动态演化分析。过往的研究容易把文化看做静态的单一实体, 并且将不同文化之间的异同 归因于其背后的国家/民族中根深蒂固的特质, 即轻易对群体进行本质化。然而, 我们需要意识到文化知识是动态发展的过程, 文化的相关潜质或 因果连结存在于特定共享文化知识的激活, 并且 共享文化会随着社会政治和其他类型的社会变化 不断地产生和演化(康萤仪 等, 2010)。传统的文 化心理学研究受制于小样本并容易忽视微弱的相 关关系, 因此在条件允许的情况下, 未来需要依 赖多种大数据语料库开展更广泛的纵向大尺度研 究, 探索文化符号串联及其背后机制的研究线 索。例如, 研究者可以使用历史档案数据库, 来研 究共享文化从何而来、其分布与使用的频率如何、 共享的边界是什么、共享文化被激活后产生了什么后果等, 进而促进共同的和个体的经验。
第三, 推动文化心理学与计算机、传播学、 历史学等学科的深度整合。文化心理学的力量在于其方法论上的多元化和多学科基础(余霞, 钟年, 2019; Cohen, 2019)。但是, 跨学科也使得学科互补的同时充满文化冲突, 例如不同学科会由于不同范式而在考虑问题的优先级等方面存在根本性 差异, 一旦学科之间产生冲突, 问题或许就会贯穿任何主题和学科的边界(Popper, 1963)。然而, 当计算思维、数据资源和计算工具被采用后, 就可以从方法论层面加速对研究问题的解决。在未来研究中, 研究者可以充分利用计算文化心理学固有的学科多样性和数据多源化, 尝试通过“计 算”去更好地整合文化心理学背后的多个学科视 角及其变量维度, 使大家共同聚焦某个问题。比如, 为了描绘复杂的文化现象共同将目光聚焦于 背后多源数据的处理、共享数据库的建成、理论与数据的结合等学科问题, 不断推进计算文化心理学的整体发展。
最后, 利用大数据的“场景功能”, 提升文化心理学研究的生态效度。 一直以来, 由于实验情境缺乏生态效度, 心理学赖以成为“科学”的实验研究备受质疑; 而在大数据背景下, 研究者对已有数据的挖掘完全能够在自然情境下生成实验变量, 在大数据中挑选情境便是实验方式(喻丰 等, 2015)。在未来研究中, 研究者不仅可以聚焦小场景, 研究个人经验与近端影响源之间的关系, 而且可以探索大场景中更远端影响源与个人经验之间的相互作用, 从而分析不同时间、空间的文化 差异。值得注意的是, 当场景被扩大和拉长, 这些真实的场景可能体现了个人行为与动机的绝大部 分变异, 这体现了自然情境研究的“深度背景化”, 有助于提升文化等背景特征的解释水平。
六、总结
总之, 计算机和大数据技术深刻影响了文化符号的生产、互动方式以及文化形态本身, 并促成了计算文化心理学的产生和发展。通过回顾计 算文化心理学的产生过程, 以及将大数据分析方法应用到文化变迁、文化地理效应等多个领域的实证研究, 有助于我们理解计算文化心理学的学 科优势、局限及未来发展方向, 并对文化心理研 究的思路拓展和方法革新具有启发意义。
尤为重要的是, 大数据为大尺度的文化分析提供了可能。文化作为一种宏观且多变的现象, 任何一种文化理论都需要从越大规模的时间和空 间维度来进行检验和评判, 基于大数据的计算文化心理学能够为研究者提供数以亿计的数据以及 强有力的分析工具; 同时, 大数据改变了传统文 化心理学的研究范式, 更产生了诸多新的文化现 象, 这蕴含了整个学科思维方式和学科体系的变 革(喻丰 等, 2015)。当然, 在看到大数据为传统文 化心理研究提供新方法、新范式的同时, 我们也不能忽视其研究局限, 以及潜在的伦理和安全风险。
精选文章
管理世界 | 使用 「经营讨论与分析」 测量 「企业数字化指标」
PNAS | 使用语义距离测量一个人的「创新力(发散思维)得分」
27G数据集 | 使用Python对27G招股说明书进行文本分析
安装python包出现报错:Microsoft Visual 14.0 or greater is required. 怎么办?
NiceGUI库 | 简单易懂的Web GUI开发包;可开发数据标注工具、心理学实验工具等
pandas | 使用 df.query 字符串表达式进行数据筛选